雑談 2025年3月
from 💬雑談
2025/3/31
ようやくPCと戯れる生活に戻ってきたので、溜まりに溜まった分頑張って読むぞぉnomadoor.icon
2025/03/30
https://zenn.dev/discus0434/articles/gemini-2-0-mmGPT-4oとGemini-2.0の画像生成能力はいかにして作られているのか
2025/3/27
ChatGPTの画像生成統合がなんか異様な性能してる…純粋に絵が上手いとかではなく「ほんとに指示が効く」ようになってる(漫画をコマ割りして書いたり、指示したら形を維持して角度変えてきたりと言った多彩なタスクをゼロショットで行ってる…)morisoba65536.icon
なお私の垢にはまだ該当モデルが来ていない😞morisoba65536.icon
Geminiも同じように画像編集できた(ツイートで見て知った)morisoba65536.icon
確実にfidelityが上がって便利になった基素.icon
https://huggingface.co/alibaba-pai/Wan2.1-Fun-1.3B-ControlWan2.1向けのControlNet?が来た?(とりあえずComfyUIの対応待ち、対応来たら個別ページにするか追記するかなり考える)
なんかtext2videoとimage2videoと同じように別モデル(loraではなく)に見えるが…?morisoba65536.icon
どうも独立モデルらしい、層の構造が少し違うので標準ノードの専用ノードを間に噛ませる必要がある…が、3/30時点のComfyUI最新版では上手く動かない不具合があるので3/28頃のバージョンで(これを使う場合)暫く様子見が良いか…?(ページに反映とかは安定してから考える予定)morisoba65536.icon
2025/3/26
https://civitai.com/models/1397074/drawundo-wan21-i2v-720-lora完成絵→線画→白紙に戻すLora
動画生成を使うことで画像の編集タスクが色々できそう…morisoba65536.icon
https://civitai.com/models/1389992/time-lapse-wan21-t2v-14b-lora線画→完成絵のLoraと合わせると写真からイラストみたいなコントロールネット的な使い方もできるのかな?(これはT2Iしか対応してないと書かれてるけど)morisoba65536.icon
https://civitai.com/models/1379629/360-camera-orbit-wan-21-i2v-lorahttps://civitai.com/models/1346623/360-degree-rotation-microwave-rotation-wan21-i2v-lorahttps://civitai.com/models/1346280/spinning-everything-wan21回転loraだけですでに3つあったりする
2025/3/24
推奨されてるサンプラー使っても画像が安定しない感じになることが多くてモデルとの相性もあるんだろうけどサンプラー何もわからんになる(Wan2.1で動画作る時にUniPC推奨されてるがeulerでないとなぜか安定しない…)morisoba65536.icon
UniPCはCFG7とかに上げるとあかんのか…?morisoba65536.icon
2025/3/22
思ってた以上に動画生成AI、拡散モデルのパラメータ数と学習データ数でぶん殴る手法がメインになってますね…(ボーンとか持たせる方向じゃないんだってなってる)morisoba65536.icon
最近ComfyUIに実装されているFP8 scaledをレイヤー見てみたらどうやら各waitレイヤーの前にscale_weightというFP32の単一の値レイヤー?があって、これを使ってFP8waitレイヤーの値の補正をして擬似的にFP32(実精度でBF16よりちょい下?)程度に調整しているようだ。morisoba65536.icon
https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/discussions/4説明、Loraなどの互換性はやや落ちるらしい
https://www.reddit.com/r/StableDiffusion/comments/1gc0wj8/sd35_large_fp8_scaled_vs_sd_35_large_q8_0_running/どうやら対応するハードウェアならFP8 scaledは早くなるらしい(ただし精度は若干GGUF Q8(INT8量子化)に劣る)
学習にも使える点はFP8 scaledの利点か?
2025/3/19
llmがキャリブレーションデータを使った量子化で性能をなるべく落とさず量子化できてるので画像生成でもできないかなーと複数のllmに聞いたところTextモデルと違って画像生成だとキャリブレーション用のデータがたくさんの種類必要でかなり難しそうな感じ…morisoba65536.icon
多分画像生成で出てくる量子化がほぼggufかbitsandbytes nf4の2択なのはこの2つがキャリブレーションデータ不要なのが大きいようだ(厳密には ggufはキャリブレーションデータを使うこともできるが)
GPTQやAWQ形式はキャリブレーションデータが必須
LLM界隈でもgguf形式は結構人気bsahd.icon
おそらくllama.cppらへんに影響されてる
これに関してはLLM界隈の技術を(Fluxあたりからパラメータがデカくなりすぎて)輸入した、が近そうな感じ(12Bでも3060 12GBでも基本的に足が出るので…)
2025/3/15
ComfyUIをEasyInstaller各種とかで入れたけど他のに移行したい(特に代替UIとしては使いやすいSwarmUI等)時に移行する手順を最近多重に移行してるのでどこかにまとめたい気持ちmorisoba65536.icon
といっても、厄介なのはComfyUI-TeaCacheとか絡んでSageAttention導入したい、とかのとき以外はCustom_Nodeフォルダの中身をごっそりコピーして一度ComfyUI立ち上げてエラー履いてるNodeを絞り込んで(ComfyUI Managerに普通に付いてる機能)全部TryFIXボタン押して回るだけなのだがmorisoba65536.icon
ちょっとした注意点としてはgguf等の「vaeやclip、TextEncoderが分離してる拡散モデル本体」はunetフォルダに入れる必要がある(checkpointフォルダは統合モデルのみ)のが初見でハマりやすい罠
エラー起きてもイージーインストーラーのせいなのかComfyUIのせいなのか分かんないので、あんま好きでないですね…nomadoor.icon
ComfyUIしか使わないなら、バニラが一番!
Stability MatrixとSwarmUIネイティブの取り扱いしやすい方をどっちか試してみるか…morisoba65536.icon
モデルとか出るときいっぺんに来過ぎでここへの記載も全然間にあって無い
2025/3/14
https://boards.4chan.org/g/thread/104624040/ldg-local-diffusion-general#p104624743これ読む限りHunyuanVideoのi2vは最初のフレームに無理やり元画像を差し込んでやってるようだが、同じようなことを途中フレームでやればキーフレーム補完とかも出来るのかな?morisoba65536.icon
2025/3/12
SageAttention+TeaCacheの組み合わせだとWan2.1の30ステップ(静止画)がSDXLみたいな速度で動いてワロタmorisoba65536.icon
あとついでに検証した感じwan2.1がかける文字数は"sushi tabe tai"くらいまでっぽい(長くなると普通に単語をガン無視し始める)
Flux.1だと割と長文ぶっ込めるので同じ感覚だと戸惑う
2025/3/10
マスコット( mass CoT )()wogikaze.icon
2025/3/8
なぜかはしらんけどホントに「llmの話題出るときはllmが大量に出てくる」「画像関連の話題が出てきたときは画像関連のモデルがやたら出てくる」みたいな感じで狙ったかのようにタイミング被るわね…morisoba65536.icon
そんな話を書いた直後に同時にWan2.1のlora学習対応に複数ツールがアップデートされたhttps://github.com/kohya-ss/musubi-tunerhttps://github.com/ostris/ai-toolkit(現時点では全てVRAM24GB以上必要)
https://huggingface.co/spacepxl/wan-cfgdistill-lorashttps://x.com/spacepxl/status/18981490191566237731.3bのCFG蒸留(高速化)Loraも出たようだ
2025/3/6
https://x.com/ostrisai/status/1897344493747355990CogView4-6B、少し期待してたが量子化との相性がかなり悪そうですね…(SDV量子化なる手法が使えるかも…とスレッドでやりとりされてはいるが)morisoba65536.icon
モデルサイズ的に家庭向けの良い選択肢がでてきたか、と思ったが(TextEncoderがやたらデカいのと)トレーニング(モデル構造の癖が強いらしい)や量子化で中々苦戦されてるようだ…
Flux.1は蒸留がきつくてがっつりトレーニングした独自モデルが出づらいので、二次絵ジャンルについて暫くはSDXLが主流に居続けるかもしれない。
https://huggingface.co/lodestones/Chromalodestones/Chroma
関連https://www.reddit.com/r/StableDiffusion/comments/1j4biel/chroma_opensource_uncensored_and_built_for_the/https://github.com/lodestone-rock/flowhttps://x.com/bdsqlsz/status/1897465513418350909
一つ前にFlux.1は追加学習がきつい、と書いた直後にかなり大規模にschnellを魔改造(Pruning&追加学習)されたモデルがでた。
名前がChromaと言う全く無関係の奴と被ってるんだけどページどう作ろう…morisoba65536.icon
とりあえずはChroma(画像生成)モデルにするしかないかなぁ…nomadoor.icon
xAIとか、英単語or短い単語は衝突するのは仕方ないwogikaze.icon
2025/3/5
画像生成AI、もしかしなくてもclipと言うTextEncoderが思ってた以上にいろんな性能の足を引っ張っていた可能性が近年の色んなモデルを見てると感じられる…まあStable Diffusion 1.5の時代は「家庭用ハードウェアで動かす」のも目的だったのであまり重たいモジュールをTextEncoderに使えなかったのもあるんだろうけど。morisoba65536.icon
サーバーで動かす奴はある程度大きくてもいいから性能を追及してほしいねwogikaze.icon
かといってSDXLレベルのサイズのゲーミングPCで動かせるサイズのモデルも作ってほしい
2025/3/3
単なるボヤキだけど俗に言う次世代モデルこと🦊SDXLより後のモデルはWorkflowが割と知らんやつがよく生えてくる(Flux.1のFluxGuidanceやらStable Diffusion 3からのModelSamplingSD3ノードやら)のとサンプルワークフローがやたらと細かくノードの数字を外に出してくる(解像度やらステップ数やらをノードの外で定義して引き込みがち)でカオスになってて理解に時間がかかる…morisoba65536.icon
一応SD1.5と同じようなシンプルなworkflowで生成できる方法も用意してくれてるので、基本そっちしか使わないnomadoor.icon
いじれるパラメータ無限にあるけど、結局大きく絵に関係するのモデルとプロンプトとシードなので、他はあんまりこだわってると時間が足りない。というか次の技術革新がやってくる(;´・ω・)
わかりすぎる(↑全体的にはるひ.icon